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摘 要 : 针对 双流 法 进行 视频 动作 识别 时 忽略 特征 通道 间 的 相互 联系 、 特 征 存 在 大 量 宛 余 的 时 空 信息 等 问题 ， 提 出 
机 | 模型 TSTAM， 实 现 了 对 视频 关键 时 空 信 2 1 用 。 首 先 ， 
将 通道 注意 力 机 制 引 入 到 双流 基础 网 络 中 ， C sus oe 信息 ， 提 高 特征 的 表 
达能 力 。 其 次 , 提出 一 种 基于 CNN 的 时 间 注 意 力 模型 ， 使 用 较 少 的 参数 学 习 每 帧 的 注意 力 得 分 ,重点 关注 运动 幅度 
明显 的 帧 。 同 时 ， A T E a a Em 提取 多 个 运动 显著 


区 域 。 接 着 ， 对 时 空 特征 进行 融合 进一步 增强 视频 的 特征 表示 。 最 后 ， 将 融合 后 的 特征 输入 到 分 类 网 络 ， 按 不 同 权 
重 融 合 两 流 输 出 得 到 动作 识 蜀 在 数据 集 HMDB51 和 UCF101 上 的 实验 结果 表明 T-STAM 能 有 效 的 识别 视频 
中 的 动作 。 
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Abstract: Aiming at the problems that the action recognition methods based on two-stream ignore the inter-relationship 
between feature channels, and have large amount of redundant spatio-temporal information, this paper proposed an end-to- 
end action recognition model based on two-stream network with spatio-temporal attention mechanism (T-STAM) , which 


realized the full utilization of the key spatio-temporal information in the video. Firstly, this paper introduced the channel 


pe attention mechanism to the two-stream basic network, and calibrated the channel information by modeling the dependencies 
r between feature channels to improve the ability of future expression. Secondly, this paper proposed a CNN-based temporal 
attention model to learn the attention score of each frame with fewer parameters, which can focuses on the frames with 
significant amplitude of motion. At the same time, it proposed a multi-spatial attention model, which calculated the attention 
score of each position in frame from different angles to extract motion saliency areas. Then, temporal and spatial features were 
fused to further enhance the feature representation of video. Finally, the fused features were input into the classification 
network, and the results of each stream are fused according to different weights to obtain the recognition results. The 
experimental results on the datasets HMDB51 and UCF101 show that T-STAM can effectively recognize actions in video. 
Key words: action recognition; two-stream; channel information; spatio-temporal attention; motion saliency areas 
0 引言 相对 较 优 。Simonyan 等 人 外 首次 提出 双流 模型 ， 将 单 帧 图 像 
和 多 帧 密度 光 流 场 图 像 分 别 输入 到 空间 流 和 时 间 流 中 ， 并 对 
动作 识别 中 在 视频 监控 、 智 能 家 居 、 视频 检 索 、 人 机 智能 ”两 流 特征 融合 分 类 。Wang 等 人 [7 提出 时 态 分 段 网 络 , 使 用 稀 
交互 等 多 种 领域 有 广泛 应 用 。 视 频 具 有 环境 复杂 、 视 角 和 人 00 朴 采样 和 视频 监督 的 策略 ， 进 一 步 的 提升 了 识别 精度 。 但 双 
体 运 动 范围 变换 幅度 较 大 等 特点 ， 这 些 特点 使 得 对 视频 进行 。” 流 法 无 法 有 效 利用 视频 的 关键 时 空 信息 。 此 外 ， 它 在 提取 视 
特征 表示 时 ， 时 间 和 空间 上 存在 大 量 的 见 余 信息 。 因 此 ， 有 频 特 征 时 忽略 了 不 同 通道 表示 信息 的 差异 性 。 为 了 获取 视频 
效 利用 视频 中 运动 幅度 明显 的 EIEE OEE 人 与 ” 中 显著 区 域 信息 ， 文 献 [8~10] 使 用 物体 检测 或 者 姿态 估计 提 
物体 交互 的 身体 部 位 等 ) 的 信息 对 动作 识别 至 关 重 要 。 取 视 频 中 多 个 关键 区 域 或 者 身体 部 位 ， 再 将 其 输入 到 网 络 中 
视频 中 动作 识别 方法 可 以 分 为 两 类 , 传统 方法 P3 和 基于 ”进行 动作 识别 。 但 是 预先 对 视频 进行 物体 检测 或 姿态 估计 会 


4 


深度 学 习 的 方法 广 2222522220。 传 统 方法 在 动作 识别 领域 取得 ” 增 大 整体 计算 代价 ,而 且 检测 和 估计 的 结果 影响 识别 的 性 能 。 
了 一 些 进展 ， 但 其 严重 依赖 于 人 工 设计 特征 ， 算 法 的 泛 化 能 基于 注意 力 机 制 的 动作 识别 方法 WW" 叶 可 以 自动 的 学 习 
力 不 足 。 基 于 深度 学 习 的 方法 能 自动 学 视频 中 的 关键 信息 。Hu SEAN 设计 了 通道 注意 力 网 络 , 从 通 
类 。 其 中 双流 法 ("能 有 效 结合 视频 中 的 时 空 信息 , 在 性 能 道上 对 特征 进行 建 模 来 突出 重点 通道 信息 。Sharma 等 人 [4 提 
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RNN 设计 


出 空间 注意 力 模 型 突出 每 帧 中 的 显著 区 域 。Du 等 人 W141 采用 
的 时 间 注 意 力 模型 为 不 同 的 帧 赋予 相应 的 权重 , 可 


以 有 效 利 


有 固定 的 


准确 的 问题 。 


针对 上 述 问题 ， 
的 端 到 端的 动作 识别 模型 


i (end-to-end action recognition model 


j 视 频 的 关键 帧 。Yang 等 人 ("使 用 双向 LSTM ix 
计时 空 注 意 力 模型 。 但 是 文献 [12~19] 有 以 下 不 足 : a) 使 用 
RNN 或 LSTM 设计 的 时 间 注 意 力 模型 参数 较 多 ， 且 RNN 
行 结构 ， 必 须 按照 时 间 的 先后 顺序 来 处 理 视频 的 
帧 ,识别 效率 低 。b) 在 提取 空间 显著 信息 时 ， 仪 用 一 个 空间 
注意 力 模型 提取 帧 的 多 个 运动 区 域 ， 会 产生 提取 区 域 信息 不 


本 文 提出 一 种 基于 双流 时 空 注意 力 机 制 


合 两 流 的 输出 得 到 最 终 动作 识别 结果 。 
2  SE-BN-Inception 模块 


全 用 卷 积 网 络 提取 视频 帧 的 特征 时 会 产生 多 通道 特征 向 


j 量 的 每 个 通道 从 特定 方面 描述 当前 帧 ， 不 同 通道 表示 
的 信息 重要 程度 并 不 相同 。 然 而 以 往 基 于 深度 学 习 的 方法 提 
取 特 征 时 ， 忽 略 了 不 同 通道 表示 信息 的 差异 性 ， 导 致 特征 


based on two-stream network with spatio-temporal attention 
mechanism , T-STAM). T-STAM 贡献 如 下 : a) 将 通道 注意 力 


融入 到 双流 基础 网 络 中 ， 在 兼顾 双流 特征 的 同时 对 特征 的 通 


道 信 息 进行 了 重新 校准 ， 
F CNN 的 时 间 


表 
示 能 力 不 强 。 而 通道 注意 力 机 制 能 学 习 到 每 个 特征 通道 的 重 
要 程度 ， 按 照 重要 程度 提升 对 当前 识别 有 用 的 通道 特征 ， 同 
SE 
X 


可 


时 抑制 识别 力 弱 的 通道 特征 。 因 此 本 文 将 通道 注意 力 机 制 久 
现 网 络 SE-Netl!! (squeeze-and-excitation networks) 7| 入 到 
流 基 础 网 络 BN-InceptionP20 中 得 到 SE-BN-Inception 模块 来 
校准 不 同 通道 信息 ， 增 强 视频 特征 的 表达 能 
SE-Net 如 图 2(a) 所 示 ， 网 络 具 体 实现 如 下 : 首先 将 输入 


增强 了 特征 的 表达 能 力 。b) 提出 基 


注意 力 模型 来 重点 关注 时 域 上 判别 力 强 的 帧 。 


与 采用 RNN 的 时 间 注 意 力 模型 相 比 ， 一 方面 ， 该 模型 基于 
CNN 在 视频 的 时 间 维 度 
数 少 且 计 算 代价 小 ; 另 一 方面 , 采用 CNN 能 实现 多 帧 的 并 行 


上 计算 每 帧 的 注意 力 得 分 , 模型 的 参 


运算 ,提高 整体 运行 效率 。c) 提出 多 空间 注意 力 模型 。 采 用 


多 个 模型 从 不 同 


位 等 ， 减 少 了 背景 信息 的 和 干扰。 将 时 空 特征 进行 融合 ， 进 
步 增强 视频 的 特征 表示 。 


上 进行 了 实验 验证 。 实 验 结果 表明 ，TSTAM 是 一 种 端 到 端 
g 


的 、 高 效 的 动作 识别 模型 


的 角度 学 习 每 帧 空间 位 置 的 权重 ， 得 到 多 个 
有 判别 性 的 运动 区 域 ， 如 人 与 物体 交互 ， 物 体 和 身体 运动 部 


特征 沿 着 通道 维度 进行 全 局 平均 池 化 压缩 特征 。 然 后 通过 两 
个 全 连接 层 来 建 模 通 道 间 的 依赖 关系 。 第 一 个 全 连接 层 将 输 
入 通道 维度 降低 为 原来 的 1/16 以 减少 计算 量 ， 之 后 通过 
ReLU 激活 函数 增加 非 线 性 ， 第 二 个 全 连接 层 将 通道 回 到 原 
来 的 维度 。 再 通过 一 个 sigmoid 函数 获得 归 一 化 的 权重 ， 最 
后 通过 特征 重 定向 操作 将 权重 加 权 到 每 个 通道 的 特征 上 。 


SE-BN-Inception 模块 结构 如 图 2(b) 所 示 ， BN-inception 
包含 9 个 inception 操作 ， 在 每 个 inception 后 加 入 SE-Net。 


d) 在 数据 集 UCF101 和 HMDB51 


1 ”双流 时 空 注 意 力 机 制 的 动作 识别 模型 


视频 可 以 看 做 


图 像 包 含 ] 
体 的 运动 


和 以 光 流 柜 


种 动作 识 


china 


域 进 行动 
合适 的 输 
为 : 将 视 # 
帧 的 RGB 


别 
特征 ， 并 将 
作 
入 


空间 和 时 间 两 部 分 组 成 。 空 间 上 ，RGB 
场景 和 物体 的 外 观 信息 ， 时 间 上 ， 光 流 图 像 包 括 物 
言 息 。 因 此 本 文采 用 以 RGB 图 像 为 输入 的 外 观 流 
像 为 输入 的 运动 流 为 基础 进行 设计 。 本 文 提 出 一 
| 模型 TSTAM 来 加 强 特征 表示 ， 能 区 分 不 同 通道 
注意 力 集 中 在 判别 力 强 的 帧 上 的 多 个 运动 显著 区 
识别 。T-STAM 整体 结构 如 图 1 所 示 。 为 了 获取 
片段 ，T-STAM 对 视频 进行 稀疏 采样 ， 有 具体 实 现 


图 1 


Fig. 1 


MESIR N 段 ， 每 段 随机 采样 一 帧 ， 将 采样 
图 像 和 光 流 图 像 输 入 到 双流 网 络 中 。 
EE ^ SE-BN-Inception ji z 


Spatial-temporal attention Classification 


T-STAM 结构 
Structure of T-STAM 


T-STAM 以 外 观 流 和 运动 流 为 基础 ， 每 流 网 络 中 均 包 含 
三 个 模块 : SE-BN-Inception 模块 、 时 空 注 意 力 模块 和 分 类 模 


3t, SE-BN-Inception 模块 能 区 分 不 同 通道 表示 特征 的 差异 性 ， 
从 整体 上 提取 到 表达 能 力 强 的 视频 特征 。 经 过 本 模块 的 外 观 
流 输出 为 we ， 时 间 流 输 


出 为 Xm; 时 空 注意 力 模块 能 进一步 


加 强 视频 的 特征 表示 ， 通 过 时 间 注 意 力 模型 和 多 空间 注意 力 


模型 分 别 在 时 间 和 空间 上 重点 突出 视频 中 识别 力 强 的 帧 以 及 
帧 的 多 个 运动 显著 区 域 。 分 类 模块 由 一 个 FC 层 和 一 个 
softmax 函数 组 成 , 将 两 流 的 时 空 特征 Fus 和 ,分别 输入 到 分 
类 模块 得 到 外 观 流 输出 S 和 运动 流 输出 5,。 按照 不 同 权 重 融 


由 于 全 连接 层 的 输出 对 空间 和 位 置 不 够 敏感 ， 经 过 卷 积 层 的 
输出 在 一 定 程度 上 保留 了 图 像 的 空间 结构 ， 因 此 将 BN- 
inception 保留 至 最 后 一 个 卷 积 层 。 


i l 
Heure Inception3a 
Global average 
pooling (SE-Net ) 
RA 
FC Inception3b 
s 
is GEN 
Me e 
Sigmoid 
GERD 
Scale Inception5b 
v 
(a) SE-Net (b) SE-BN-Inception 


图 2 SE-Net fll SE-BN-Inception 结构 
Fig.2 Structure of SE-Net and SE-BN-Inception 


3 ”时 空 注意 力 模块 


时 空 注意 力 模块 由 基于 CNN 的 时 间 注 意 力 模型 、 多 空 
间 注 意 力 模型 以 及 时 空 特 征 的 融合 组 成 。 时 间 注 意 力 模型 和 
多 空间 注意 力 模 型 分 别 从 视频 的 时 间 和 空间 维度 上 重点 关注 
关键 帧 和 多 个 运动 显著 区 域 ， 时 空 特征 的 融合 能 有 效 结合 提 
取 的 关键 时 空 信 息 ， 进 一 步 增强 视频 的 特征 表示 ， 提 高 动作 
识别 准确 率 。 
3.1 基于 CNN 的 时 间 注 意 力 模型 

动作 是 一 个 持续 变化 的 过 程 ， 视 频 中 不 同 的 帧 对 识别 动 
作 的 贡献 程度 并 不 相同 。 应 该 优先 选择 包含 丰富 信息 ， 动 作 
变化 较 明 显 的 帧 参加 分 类 。 时 间 注 意 力 模型 能 为 关键 帧 赋予 
更 多 的 关注 度 。 然而 , 以往 的 时 间 注 意 力 模型 04~!9 基 于 RNN 
设计 实现 ， 网 络 参数 较 多 、 结 构 复 杂 且 无 法 随时 间 并 行 化 。 
为 了 解决 这 个 问题 ， 本 文 提出 一 种 基于 CNN 的 时 间 注 意 力 
模型 。 采用 CNN 生成 每 帧 的 注意 力 得 分 , 以 注意 力 得 分 判断 
视频 中 每 一 帧 相对 于 动作 识别 的 重要 性 ， 选 择 性 的 关注 重点 
帧 ， 在 时 间 维 度 上 进一步 的 增强 视频 特征 表示 。 本 文 设计 的 
时 间 注 意 力 模型 不 仅 参 数 较 少 ， 结 构 简 洁 。 还 可 以 并 行 计算 
出 所 有 帧 的 注意 力 得 分 , 能 充分 利用 GPU 硬件 的 优势 。 基 于 
CNN 的 时 间 注 意 力 模 型 如 图 3 所 示 。 


202009.00067v1 


chinaXiv 


AGER, $: 工 STAM: 基 于 双流 时 空 注意 力 机 制 的 端 到 端的 动作 识别 


E 
2 


图 3 


1024xN 


基于 CNN 的 时 间 注 意 力 模型 


Fig.3 Temporal attention model based on CNN 
经 过 SE-BE-Inception RIK JS If] EE y X = tN) ， 


X E RN*CxWxH 入 


N 表示 视频 选 


WxH 为 特征 


图 的 网 格 单元 数 。 


先 将 其 通过 全 连接 层 进 行 线 性 
一 个 视频 帧 的 线性 映射 


的 帧 数 ， 
对 于 视频 第 i 帧 的 特征 向 量 *， 
决 射 ， 映 射 后 的 特征 为 名 ， 同 
使 用 相同 的 参数 ， 


X =m; tb i-L2..N 


C 代表 特征 维度 ， 


ChinaX i 


RA 


AOCKH ggg 
每 个 模型 主要 由 两 个 卷 积 层 和 
第 j 个 空间 注意 力 模 型 ， 先 将 X 经 过 一 个 1 


tanh 激活 函数 把 特征 维 


Hr 


Xx 


降 至 NxFxWxH( =256) 以 减少 计 


算 代价 。 然 后 经 过 第 二 个 卷 积 


如 式 (4)。 在 每 个 卷 积 


zu 


引入 BN 操作 可 以 解决 协 方差 偏 移 问题 ， 


BN 具体 实现 如 式 (5)。 
cj! BN (w; (tanh( BN (w,x, + b,)))) + bj) 


v= 


fs 


u'—m 


vvar 


xa 


BARE e jean, 
E LA BN(Batch Normalize) 操 作 ， 
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FE 意 力 模 型 来 提取 帧 的 运动 显著 区 域 ， 
个 softmax 函数 组 成 ， 对 于 


xl 的 卷 积 层 和 


体 实 现 


| 练 更 加 稳定 ， 


(4) 
(5) 


式 (4) 中 wa ws,b,, bs 是 网 络 中 可 学 习 的 参 数 。 第 二 个 卷 积 层 


的 卷 积 核 


注意 力 模型 个 数 。 式 (5) 中 


Lt). 


a 


Hrpon. b 是 模型 中 学 习 的 参数 ， 整 个 视频 的 映射 特征 为 


È= Gis), X ERD (D=256), 将 特征 锣 通 过 一 个 卷 积 核 大 


间 维 度 使 


数 of， 计算 如 式 (2)。 


Herr com 代表 卷 积 


ai = 


操作 。 a 表示 


度 。 


第 ; 帧 的 时 间 特 征 ， 对 所 
的 时 间 特 征 f' 如 式 (3)。 


N 
r= 2: aix i 
izl 


3.2 多 空间 注意 力 模型 


视频 由 序 允 


以 及 其 他 区 域 。 


小 为 1x1 的 卷 积 层 将 视频 特征 维度 变 为 1xN 。 沿 视频 帧 的 时 


] softmax 函数 得 到 视频 的 每 一 帧 的 时 间 注 意 力 分 


exp(conv(4;)) 


b» exp(conv(3;)) 


Q) 
第 ; 帧 对 识别 动作 的 贡献 程 


获得 第 ; 帧 的 注意 力 得 分 w% 后 ， 将 其 与 特征 雪 相 乘 得 到 
了 帧 的 时 间 特 征求 和 得 到 整个 视频 


G) 


z12..N 


其 中 f' e RY? ， 它 考虑 到 了 视频 中 每 个 选取 帧 的 重要 程度 。 


是 可 训练 参数 ， 


将 wi 与 每 个 映 英 


征 。 由 于 使 用 


fi 


| L 


尺寸 为 5x5 ， 卷 积 步 长 为 1。 erma, I 表示 空 间 
vi 和 w 是 输入 和 输出 信号 ， 
m 和 var 表示 均值 和 方差 。 
将 经 过 两 个 卷 积 层 之 后 的 特 生 


算 第 i 帧 中 每 个 空间 


和 Bp 


Fo 输入 到 softmax 函数 计 
区 域 的 概率 得 分 aj (k e mm) 如 式 (6)。 


(6) 


特征 进行 元 素 相 乘 得 到 加 权 的 空间 特 


个 空间 注意 力 ， 每 帧 可 提取 /个 空间 特征 。 


将 每 个 视频 选取 帧 的 第 jG e D 个 空间 特征 求 和 ， 得 到 整个 视 
频 的 第 j 个 空间 特征 f" n 


3.83 ”时 空 特征 的 融合 


时 空 特征 融合 是 结合 


1 图 像 组 成 ， 每 帧 空间 上 可 分 为 运动 显著 区 域 
对 于 动作 识别 视频 ， 运 动 显 著 区 域 通常 是 人 
体 运 动 部 位 以 及 操作 物体 所 在 位 


， 如 喝 水 这 个 动作 ， 利 用 


人 的 有 骆 膊 、 头 部 区 域 以 及 杯子 的 4 
姑 此 ， 应 重点 关注 每 帧 中 的 运动 显著 区 域 。 以 往 采 |) 


村 征 就 可 以 准确 识别 动作 。 
] 物 体检 


工作 量 大 且 实 现 复杂 。 空间 注 
题 。 然 而 ， 文 献 [14~19] 仅 使 用 


测 &9、 姿 态 估计 09 等 方法 提取 关键 区 域 信息 进行 动作 识别 ， 
意 力 机 制 0 和 9 可 以 解决 上 述 问 
个 空间 注意 力 模型 来 提取 不 


同 显 著 区 域 信息 ， 存 在 提取 的 部 分 显 


Apr 


EE 0/6 B] E PUW RE 
文 提 出 了 多 空间 注意 力 模型 ， 


空间 上 与 动作 交互 的 不 同 
体 结构 如 图 


驻 域 不 准确 等 问题 。 
区 域 信息 ， 本 


4 所 示 。 多 空间 


注意 力 模型 不 是 根据 特征 图 的 网 格 大 小 对 输入 图 像 进 行 空间 


人 的 姿态 变化 带 来 的 问题 ， 在 邱 


表示 。 空 间 注意 力 模型 的 个 数 代表 着 学 习 


上 的 分 解 ， 而 是 从 多 个 角度 来 提取 帧 的 空间 
中 各 个 位 置 的 注意 力 得 分 ， 进 
这 种 学 习 方式 可 以 减少 背景 等 无 关 信息 


而 找到 不 同 


= El 


[san 


计算 每 帧 


的 运动 显著 区 域 。 
的 和 干扰， 缓解 视频 中 


间 上 进 


步 增强 视频 的 特征 


村 二 


>| convi —4] BN —| conv2 上 | BN 


量 ， 通 过 实验 确定 了 空间 注意 力 模型 数 的 


的 运动 区 域 数 
取 值 。 


NTA 


softmax =g" 


E Attention] 4D, 5 


>l convi BN — conv2 上 | BN 


conv2 H BN 上 


sofimax [— am 


Fig. 4 


G9 Attention2 : 
E 


"S 
p 

^» Attention] | T 

"QU zu f 


图 4 多 空间 注意 力 模型 


Multi-spatial attention model 


球 这 个 动作 ， 通 过 时 间 注 意 


式 (7)。 


(7) 


视频 提取 的 时 间 特 征 和 空间 特征 来 


判断 人 的 动作 类 别 。 融 合 的 时 空 特征 能 表示 关键 帧 的 运动 显 


著 区 域 ( 人 体 运 动 部 位 、 交互 物体 等 ) 的 变化 信息 , 进 
特征 的 表达 能 力 ， 对 动作 进行 更 准确 的 识别 。 比 如 打 高 尔 夫 

E 意 力 模 型 ， 挥 球 动作 较 明 显 的 帧 会 
获得 更 多 的 关注 度 。 经 过 空间 注意 力 模型 提取 到 人 的 腹 膊 、 


Li 


高 尔 夫 球 杆 、 球 等 关键 区 域 。 
球 动作 明显 的 帧 上 的 多 个 运动 显著 区 域 ， 更 好 的 识别 动作 。 
时 空 特征 的 融合 如 图 5 所 示 。 


步 增强 


结合 时 空 特征 可 


以 重点 关注 挥 


Temporal-attention 


J5 时 空 特征 的 融合 


Fig.5 Fusion of spatial-temporal features 


每 个 视频 分 别 获得 /个 空间 


特征 f"G-1 


间 特 征 f' ， 先 将 每 个 空间 特征 映射 到 时 间 特 和 
的 空间 特征 f£» 分 别 和 视频 的 时 
五 ， 然 后 将 这 ! 个 特征 连接 起 来 得 到 视频 的 时 空 特征 到 ， 具 


体 如 式 (8)(9) 所 示 。 


EL 中 ; 


4 ”实验 结果 与 
4.1 


的 数 ] 


本 文采 / 
别 数 据 


my 


UCF101 数据 集 


,2.0 和 一 个 时 
E 上 。 即 把 视频 


间 特 征 f 相 力 


Refur 
F = concate(F,, F,...F,) 


分 析 


concate 表示 连接 操作 。 


实验 数据 集 和 评价 标准 


居 集 为 国际 公开 的 两 个 基于 视频 的 动作 识 


: UCF101 和 HMDB51。 
包含 101 类 动作 、13320 个 视频 。 该 数 


[得 到 1 个 特征 


(8) 
(9) 
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录用 定稿 石 祥 滨 ， 等 : 工 STAM: 基 于 双流 时 空 注意 力 机 制 的 端 到 端的 动作 识别 模型 第 38 卷 第 3 期 
据 集 在 动作 的 采集 上 具有 较 强 的 多 样 性 ， 包 括 相 机 运动 、 物 进行 了 对 比 实验 ， 结 果 如 图 7 所 示 。 从 图 7 可 以 看 出 ， 当 空 


体外 观 运 动 、 姿 态 变化 和 背景 变化 等 。 动 作 类 别 分 为 5 组 : 

人 与 物体 交互 、 身 体 运 动 、 人 与 人 交互 、 演 奏 乐 器 和 体育 运 
动 。 该 数据 具有 类 内 差异 大 、 类 间 差 异 小 等 问题 。HMDB51 
数据 集 共 有 6676 个 视频 、51 类 动作 。 视 频 样本 主要 来 源 于 
电影 、YouTube、Google 视频 等 公共 数据 ， 其 中 许多 视频 质 
量 较 差 。 因 此 ， 在 这 两 个 数据 集 上 进行 动作 识别 具有 一 定 的 
挑战 性 。 对 于 这 两 种 数据 集 ， 本 文采 用 官方 划分 的 方式 ， 即 
每 个 数据 集 都 分 成 三 个 split, 每 个 split 中 70% 的 视频 是 训练 
集 ，30% 的 视频 是 测试 集 。 

本 文采 用 Top-1 识别 准确 率 (以 下 简称 识别 准确 率 ) 作 为 
评价 标准 。 本 文中 每 个 数据 集 的 识别 准确 率 都 是 对 其 三 个 
split 的 动作 识别 准确 率 进行 加 权 平 均 求 到 的 。 
42 实验 设置 

本 次 实验 在 GPU 版 本 的 pytorch 上 执行 。 本 文 使 用 的 
Backbone 是 BN-Inception，BN-Inception 模型 是 GoogLeNet 
模型 的 升级 版 ， 它 在 准确 率 和 效率 之 间 有 着 较 好 的 平衡 。 本 
文 使 用 在 ImageNet 数据 集 上 预 训练 的 模型 参数 对 网 络 进 行 初 
始 化 。 为 了 将 光 流 数据 和 RGB 数据 保持 一 致 ， 本 文 使 用 Wang 
等 人 [7 提供 的 工具 提取 光 流 。 先 采用 TV-L1 算法 获取 光 流 数据 ， 
然后 通过 线性 变换 将 光 流 数据 量化 至 [0,255] 范 围 内 。 
训练 阶段 : 先 将 输入 帧 的 大 小 调整 为 240X320， 再 采用 
固定 角落 裁剪 和 水 平 翻 转 ， 将 裁剪 区 域 的 大 小 调整 为 224 Xx 
224。 在 分 类 网 络 的 全 连接 层 之 前 加 入 dropout 层 ， 外 观 流 和 
运动 流 的 dropout 值 分 别 设置 为 0.8 和 0.7。 通 过 小 批量 随机 
梯度 下 降 算 法 优化 参数 ，batchsize 为 32， 权 重 衰减 系数 设 
为 0.0005， 动 量 设 为 0.9。 外 观 流 的 学 习 率 初始 值 为 0.001， 
在 30 个 epoch 和 60 个 epoch 之 后 分 别 降 低 到 原来 的 1/10, 
共 训 练 80 个 epoch 。 运动 流 的 学 习 率 初始 值 为 0.001, 在 190 
个 epoch 和 300 个 epoch 之 后 分 别 降 为 原来 的 10， 共 训练 
340 个 epoch。 
测试 阶段 : 使 用 均值 采样 从 每 个 样本 中 选取 25 帧 图 像 ， 对 
于 每 帧 图 像 ， 通 过 裁剪 和 翻转 方式 进行 数据 增强 ， 获 得 10 个 测 
试 样本 ， 通 过 平均 10 个 样本 的 输出 类 别 概率 得 到 分 类 结果 。 
4.3 实验 分 析 

本 节 先 对 视频 的 不 同 分 段 数 、 不 同 空 间 注意 力 模型 数 、 
双流 不 同 融 合 权 重 下 的 动作 识别 性 能 做 了 对 比 实验 。 然 后 ， 
对 加 入 通道 注意 力 网 络 后 的 动作 识别 性 能 进行 了 实验 分 析 。 
最 后 , 将 本 文 方法 和 The-state-of-the-art 方法 进行 了 比较 , 分 
析 了 本 文 方法 的 有 效 性 。 
4.3.1 不 同 视 频 分 段 数 下 的 动作 识别 性 能 分 析 
本 文 使 用 TSN 中 的 稀 疏 采样 方法 对 视频 中 的 帧 进行 采 
样 ， 并 将 其 作为 网 络 的 输入 数据 。 为 了 分 析 不 同 视频 分 段 数 
对 动作 识别 性 能 的 影响 ， 本 文 在 数据 集 HMDB51 的 第 一 个 
split 上 进行 了 对 比 实验 。 本 文 分 别 从 视频 中 稀疏 采样 3、4、 
5, 6 个 片段 进行 动作 识别 ,在 外 观 流 上 得 到 的 实验 结果 如 图 
6 所 示 。 实 验 结果 表明 ， 随 着 视频 分 段 数 的 增加 ， 识 别 准确 
率 逐 渐 上 升 。 当 视频 分 段 数 为 6 时 ,网 络 的 识别 准确 率 最 高 。 
这 是 因为 网 络 可 以 从 不 断 增加 的 样本 中 学 习 到 更 多 的 信息 。 
从 图 6 可 以 看 出 ， 当 视频 分 段 数 大 于 S 时 ， 随 着 分 段 数 的 增 
加 ， 识 别 准确 率 的 上 升 趋势 逐渐 变 缓 。 而 且 由 于 电脑 显存 有 
限 ， 无 法 测试 更 多 的 分 段 数目 。 因 此 本 文 将 每 个 视频 分 成 6 
段 进 行 后 续 实 验 。 
4.3.2 不 同 空 间 注 意 力 模型 数 下 的 动作 识别 性 能 分 析 
本 文 提 出 的 多 空间 注意 力 模 型 可 以 提取 多 个 运动 显著 
域 进行 动作 识别 。 随 着 空间 注意 力 模 型 数 的 增加 ， 提 取 的 
动 显 著 区 域 也 逐渐 增加 。 为 了 分 析 空 间 注意 力 模 型 数 对 动作 
识别 性 能 的 影响 ， 本 文 在 数据 集 HMDB51 的 第 一 个 split 上 
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间 注 意 力 模型 数 小 于 4 时 ， 随 着 空间 注意 力 模 型 数 的 增加 ， 
识别 准确 率 逐 渐 提高 。 当 空间 注意 力 模 型 数 为 4 时 ， 动 作 识 


别 性 能 最 佳 ， 当 空间 注意 力 模型 数 为 5 时 ， 识 别 率 下 降 。 
于 电脑 显存 有 限 , 空间 注意 力 模型 数 大 于 5 时 实验 无 法 运行 。 
寻 此 本 文采 用 4 个 空间 注意 力 模型 进行 后 续 实 验 。 

I. P d 


图 6 不 同 视频 分 段 数 的 图 7 不 同 空 间 注意 力 模 型 数 的 
动作 识别 准确 率 比 较 识别 准确 率 比较 


Fig.6 Comparison of recognition Fig.7 Comparison of recognition 


accuarcy of different accuarcy of different spatial 


video segements attention numbers 
4.3.3 双流 网 络 不 同 融合 权重 下 的 动作 识别 性 能 分 析 
本 文通 过 实验 分 析 外 观 流 和 运动 流 的 不 同 融合 权重 对 动 
作 识别 性 能 的 影响 ， 结 果 如 表 1 所 示 。 从 表 1 可 以 看 出 ， 
采用 运动 流 比 外 观 流 识别 准确 率 高 ， 双 流 融 合 比 单 流 的 效 
好 。 当 外 观 流 和 运动 流 按 1/4 和 3/4 的 权重 进行 融合 时 ， 动 
作 识 别 结果 最 好 。 因 此 本 文选 取 外 观 流 和 运动 流 融 合 权 重 为 
1:3 进行 后 续 实 验 。 
表 1 双流 不 同 融合 权重 的 识别 准确 率 对 比 


LL 


Tab. 1 Comparison of recognition accuracy of 
different fusion weights in two streams 1% 
融合 方法 识别 率 融合 方法 识别 率 
仅 RGB 流 53.33 | 1/2RGB 流 和 1/2 光 流 67.53 


仅 光 流 64.93 | 1/4RGB 流 和 3/4 光 流 — 71.8 
1/3RGB 流 和 2/3 光 流 69.38 

4.3.4 加 入 通道 注意 力 网 络 后 的 动作 识别 性 能 分 析 

为 了 验证 通道 注意 力 网 络 的 有 效 性 ， 将 加 入 SE-Net 的 
TSNI 的 模型 与 TSN 模型 在 两 个 数据 集 上 的 识别 准确 率 进 行 
对 比 , 融入 后 的 模型 采用 与 TSN 相同 的 实验 参数 。 对比 结果 
如 表 2 所 示 ， 可 以 看 出 ， 与 TSN 相 比 ， 融 入 SE-Net 的 TSN 
异型 在 数据 集 UCF101 和 HMDB51 的 识别 准确 率 分 别 有 0.296 
1.3% 的 提升 。 说 明 融 入 通道 注意 力 网 络 能 突出 视频 中 有 区 分 
的 通道 信息 ， 增 强 特征 的 表达 能 力 ， 提 高 动作 识别 的 性 能 。 

表 2 融入 SE-Net 的 TSN 模型 与 TSN 识别 准确 率 比 较 


Tab.2 Comparison of recognition accuracy between 
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TSN integrated with SE-Net and TSN /% 
方法 Backbone architecture UCF101 HMDB51 
TSN"! BN-Inception 94.9 69.4 
SE-Net+TSN SE-BN-Inception 95.1 70.7 


4.3.5 -5 the-state-of-the-art 方法 的 对 比 实验 

1) 与 使 用 注意 力 的 动作 识别 方法 的 对 比 实验 分 析 

为 了 验证 本 文 提出 的 时 空 注 意 力 模型 的 有 效 性 ， 将 本 文 
算法 T-STAM( 不 含 SE-Net) 与 其 他 使 用 注意 力 机 制 的 动作 识 
别 方法 进行 比较 ,实验 结果 如 表 3 所 示 。 通 过 表 3 可 以 看 出 ， 
本 文 的 方法 具有 更 高 的 准确 率 。a) 与 采用 RNN 的 方法 生成 的 
时 间 注 意 力 模型 Temporal attention H3148 Hk , T-STAM(5 <4 SE- 
Neb 在 数据 集 HMDB51 上 准确 率 有 了 6.3% 的 提升 。 这 是 因 
为 Temporal attention 03] 仅 仅 提取 了 关键 帧 ， 而 本 文 既 提取 了 
关键 帧 ， 还 关注 了 空间 维度 上 的 运动 显著 区 域 ， 说 明 时 空 信 
息 的 结合 能 有 效 地 提高 识别 精度 。b)T-STAM( 不 含 SE-Net) 的 
识别 效果 优 于 以 BN-Inception 为 Backbone 的 时 空 注意 力 模 
型 RSTANL9 和 ISTPAN05, 说明 在 使 用 相同 的 Backbone F, 


ChinaXiv& Et 
ChinaXiv&r {F 


录用 定稿 AER, €: TSTAM: 基 于 双流 时 空 注 意 力 机 制 的 端 到 端的 动作 识别 模型 第 38 卷 第 3 期 


本 文 提 出 的 时 空 注 意 力 模型 虽然 结构 简单 ， 但 能 更 有 效 地 提 
取 到 视频 的 关键 时 空 信息 。c) 与 Attention cluster0lg、 使 用 双 
向 LSTM 设计 的 注意 力 网 络 Bi-LSTM attention07、 基 于 残 差 
的 时 空 注意 力 的 模型 R-STANUSHEH EG, TSTAM( 不 含 SE-Net) 
有 更 好 的 性 能 。 文 献 [16~18] 都 以 ResNet 为 Backbone 进行 
动作 识别 ，ResNet 的 网 络 性 能 优 于 BN-Inception， 但 本 文采 
用 BN-Inception 为 Backbone 的 仍然 获得 了 较 好 的 识别 效果 。 
这 说 明 本 文 提出 的 时 空 注 意 力 模型 可 以 有 效 弥 补 BN- 
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强 
B, 


puts 


结束 语 
针对 双流 法 忽略 特征 不 同 通道 信息 的 差异 性 、 无 法 区 分 


RN 


视频 的 元 余 帧 、 背 景 等 时 空 信息 ， 造 成 整体 特征 表达 能 力 不 


识别 率 不 高 的 问题 ， 本 文 提 出 一 种 基于 双流 时 空 注 意 
1 的 端 到 端的 动作 识别 模型 。 本 文 先 将 通道 注意 力 融 入 双 


流 结构 ， 通 过 对 通道 特征 的 建 模 来 校准 通道 信息 ， 提 高 视频 
竺 征 表达 能 力 。 再 设计 基于 CNN 的 时 间 注 意 力 模型 和 多 


Inception 的 不 足 ， 准 确 提取 视频 中 的 关键 时 空 信息 ， 提 高 动 


间 注 意 力 模型 来 重点 关注 判别 力 强 的 帧 上 的 多 个 运动 显著 


作 识 别 的 准确 率 。d) 加 入 SE-Net 之 后 ,本文 的 工 STAM 在 两 


个 数据 集 上 的 识别 准确 率 有 了 进一步 的 提升 ， 这 说 明 结 合 通 
道 注 意 力 网 络 后 ，T-STAM 可 以 通过 校准 特征 通道 的 信息 来 
提高 动作 识别 的 性 能 。 

表 3 与 使 用 注意 力 的 动作 识别 方法 的 识别 准确 率 比较 


Tab.3 Comparison of recognition accuracy with attention based 


action recognition methods 1% 
方法 Backbone architecture UCF101 HMDB51 

Temporal attention! ?! BN-Inception 93.3 65.0 
RSTAND9 BN-Inception 94.6 70.5 
ISTPAND5] BN-Inception 94.8 69.6 
Attention cluster! ResNet-152 94.6 69.2 
Bi-LSTM attention"! ResNet-152 94.8 71.9 
R-STANU*! ResNet-152 94.5 68.7 
Æ X: (without SE-Net) BN-Inception 95.3 71.3 
Æ X(I-STAM) SE-BN-Inception 95.7 71.9 


2) 与 近年 来 经 典 的 动作 识别 方法 的 对 比 实验 分 析 

为 了 进一步 的 验证 本 文 方法 ， 将 工 STAM 与 一 些 经 典 的 
动作 识别 方法 进行 比较 ,结果 如 表 4 所 示 。 从 表 4 可 以 看 出 : 
a) 与 传统 方法 IDT 外 相 比 ，T-STAM 的 识别 准确 率 较 高 。 这 说 
明 本 文 提 出 的 时 空 注意 力 模型 能 有 效 地 提取 出 视频 中 关键 的 
时 空 信息 ， 提 高 动作 识别 的 效果 。 且 T-STAM 采用 的 端 到 端 
的 结构 使 得 计算 更 加 简洁 。b) 与 双流 模型 后、 时 态 分 段 网 络 
TSNUHH LEG, T-STAM 在 数据 集 UCF101 识别 准确 率 分 别提 升 
了 3.2% 和 0.8%， 在 数据 集 HMDB51 上 识别 准确 率 分 别提 升 
了 6.5% 和 2.5%。 这 说 明 T-STAM 在 双流 的 基础 上 加 入 的 时 
室 注 意 力 模 型 ,可 以 有 效 地 提取 到 关键 帧 上 更 多 的 运动 特征 ， 
通过 这 些 信息 能 更 准确 的 识别 视频 中 的 动作 。c) 与 传统 特征 
提取 和 卷 积 网 络 相 结合 的 分 类 算法 TDD 、 训 练 较 深 的 C3D 
网 络 23、 时 空 残 差 模型 STResNet23]、 时 空 金 字 塔 模型 24] 以 
及 ARTNetP5、TSMP9 等 比较 结果 可 以 看 出 ，TSTAM 的 识 
别 效果 更 优 。 这 说 明 T-STAM 兼顾 了 双流 特征 ， 对 通道 特征 
进行 的 重新 校准 突出 了 重点 通道 信息 ， 提 出 的 时 空 注意 力 模 
型 充分 的 挖掘 了 视频 的 关键 时 空 信息 ， 获 取 了 表达 能 力 增强 
的 视频 特征 ， 建 立 了 全 面 的 动作 描述 。 

XA 与 近年 经 典 的 动作 识别 方法 的 识别 准确 率 比较 


Tab.4 Comparison of recognition accuracy with classical action 


recognition methods in recent years /% 

方法 UCF101 HMDB51 
IDTCI 85.9 57.3 
Two-stream fusion?! 92.5 65.4 
TSN! 94.9 69.4 
TDD"! 90.3 63.2 
C3DP2 82.3 56.8 
ST-ResNet'?! 93.4 66.4 
ST-pyramid?^! 94.6 68.9 
ARTNetÜ?! 94.3 70.9 
TSMP9 94.5 70.7 
本 文 (T-STAM) 95.7 71.9 


或 ， 进 一 步 增 强 视频 的 特征 表示 。 本 文 在 数据 集 UCF101 


和 HMDB51 上 进行 了 对 比 实验 ， 与 近年 来 的 先进 方法 相 比 ， 


本 文 取得 了 较 高 的 识别 准确 率 。 实 验 结果 说 明 本 文 模型 能 有 
效 的 区 分 不 同 通道 特征 ， 将 注意 力 集中 在 视频 的 关键 时 空 
轧 上 ， 更 准确 的 识别 视频 中 的 动作 。 但 本 文 的 运动 流 和 外 观 
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流 采用 了 相同 的 网 络 结构 ， 而 人 类 对 运动 信息 和 外 观 信 息 的 
理解 是 两 个 不 同 的 过 程 , 因 此 两 流 的 网 络 结构 应 该 有 所 区 分 。 
今后 的 工作 中 将 会 在 运动 流 和 外 观 流 设 计 不 同 的 网 络 结构 进 


行 研究 ， 也 会 探索 与 其 他 深度 学 习 模 型 相 结 合 ， 进 一 步 提高 
识别 准确 率 。 
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